Scholar Hub/Chủ đề/#khai phá dữ liệu/
Khai phá dữ liệu (Data Mining) là quy trình phân tích dữ liệu tự động hoặc bán tự động để khám phá các mẫu, thông tin hữu ích và kiến thức độc đáo từ bộ dữ liệu...
Khai phá dữ liệu (Data Mining) là quy trình phân tích dữ liệu tự động hoặc bán tự động để khám phá các mẫu, thông tin hữu ích và kiến thức độc đáo từ bộ dữ liệu lớn. Nó bao gồm việc áp dụng các kỹ thuật phân tích dữ liệu, thuật toán máy học và trí tuệ nhân tạo để tìm kiếm các mẫu ẩn, quy tắc, thông tin tiềm ẩn trong dữ liệu, từ đó giúp người dùng hiểu rõ hơn về dữ liệu và đưa ra quyết định thông minh. Việc khai phá dữ liệu được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm kinh doanh, y tế, marketing, khoa học, và xã hội học.
Khai phá dữ liệu là quá trình tìm kiếm thông tin, mô hình, cấu trúc và kiến thức từ dữ liệu không cấu trúc, dữ liệu lớn hay dữ liệu phức tạp. Nó tập trung vào việc phân tích dữ liệu để khám phá các mẫu, quy tắc, tổ chức, mối quan hệ hoặc tri thức ẩn trong dữ liệu.
Các kỹ thuật khai phá dữ liệu thường sử dụng các phép toán dựa trên số học, thống kê, máy học và trí tuệ nhân tạo để phân tích dữ liệu. Dưới đây là một số kỹ thuật khai phá dữ liệu phổ biến:
1. Phân cụm (Clustering): Phân cụm nhóm các đối tượng tương tự lại với nhau dựa trên các thuộc tính chung. Phân cụm giúp hiểu về cấu trúc của dữ liệu và cung cấp quan điểm tổng thể về sự tương quan giữa các đối tượng.
2. Phân loại (Classification): Xây dựng các mô hình để phân loại đối tượng vào các nhãn được xác định sẵn. Các thuật toán phân loại học từ dữ liệu huấn luyện và sau đó phân loại các mẫu mới dựa trên mô hình đã học.
3. Học tập theo quy tắc (Association rule learning): Tìm kiếm các quy tắc liên kết giữa các biến/tuần tự. Ví dụ: "Nếu khách hàng mua sản phẩm X, họ thường cũng mua sản phẩm Y".
4. Dự đoán (Prediction): Dự đoán giá trị hoặc quyết định tương lai dựa trên các biến đã biết. Các mô hình machine learning được sử dụng để ước lượng và dự đoán kết quả.
5. Phân tích chuỗi thời gian (Time series analysis): Phân tích và dự đoán xu hướng và mô hình của dữ liệu trong tuần tự thời gian.
Trong quy trình khai phá dữ liệu, người sử dụng thường tiến hành các bước sau: thu thập dữ liệu, xử lý dữ liệu (lọc, chuẩn hóa, biến đổi), chọn mô hình và thuật toán phù hợp, thực hiện đào tạo mô hình, đánh giá và tinh chỉnh, và cuối cùng sử dụng kết quả để rút ra thông tin hữu ích và đưa ra quyết định.
Phát hiện vi phạm ranh giới khai thác mỏ lộ thiên bằng dữ liệu Sentinel-2 MSI ở các tỉnh Lào Cai và Yên Bái miền Bắc Việt Nam Dịch bởi AI Mining Science and Technology(Russian Federation) - Tập 8 Số 2 - Trang 173–182 - 2023
Khai thác mỏ trái phép, bao gồm việc vi phạm ranh giới cho thuê trong quá trình khai thác khoáng sản ở Việt Nam, đã chứng kiến sự gia tăng đáng kể trong những năm gần đây, dẫn đến tổn hại lớn cho môi trường. Do vị trí xa xôi của các khu vực khai thác so với các khu dân cư, việc phát hiện các hoạt động khai thác mỏ trái phép bằng các phương pháp truyền thống gặp nhiều thách thức đáng kể. Nghiên cứu...... hiện toàn bộ #khai thác mỏ trái phép #cảm biến từ xa #dữ liệu Sentinel-2B MSI #Vietnam #các tỉnh Lào Cai và Yên Bái
Giải Pháp Hiệu Quả cho Phân Loại Naïve Bayes Duy Trì Tính Riêng Tư Trong Mô Hình Dữ Liệu Phân Tán Hoàn Toàn Dịch bởi AI Hội thảo nghiên cứu ứng dụng Mật mã và An toàn thông tin - Tập 1 Số 15 - Trang 56-61 - 2022
Tóm tắt—Gần đây, việc bảo vệ tính riêng tư đã trở thành một trong những vấn đề quan trọng nhất trong khai phá dữ liệu và học máy. Trong bài báo này, chúng tôi đề xuất một bộ phân loại Naïve Bayes duy trì tính riêng tư mới cho kịch bản dữ liệu phân tán hoàn toàn, nơi mỗi bản ghi chỉ được giữ bởi một chủ sở hữu duy nhất. Giải pháp mà chúng tôi đề xuất dựa trên một giao thức tính toán bảo mật đa bên,...... hiện toàn bộ #khai phá dữ liệu và học máy đảm bảo tính riêng tư; tính toán bảo mật nhiều thành viên; phân lớp Naïve Bayes; mã hóa đồng cấu; tính riêng tư của dữ liệu
Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu khách hàng sử dụng dịch vụ khách sạnNgày nay, ngành công nghiệp du lịch, đặc biệt là kinh doanh khách sạn đang phát triển mạnh mẽ. Dữ liệu khách hàng lưu trú tại khách sạn được lưu trữ chứa rất nhiều tri thức giá trị. Tuy nhiên, dữ liệu này lại không được khai thác triệt để. Trong khi đó, các nhà quản trị khách sạn đang rất cần được hỗ trợ về vấn đề chăm sóc khách hàng, đưa ra chính sách tối ưu trong quản lý từ những tri thức có đượ...... hiện toàn bộ #khai phá dữ liệu #phân tích hành vi #phân cụm #luật kết hợp #dịch vụ khách sạn
Ứng dụng mô hình máy học Véc-tơ tựa (SVM) trong phân tích dữ liệu điểm sinh viênBài báo này đề xuất ứng dụng mô hình kết hợp máy học véc-tơ tựa và hệ thống mờ trong việc trích xuất luật mờ từ dữ liệu điểm sinh viên. Máy học Véc-tơ tựa (SVMs) và hệ thống luật mờ có sự tương đương nhau với một số điều kiện nhất định. Trên cơ sở phân tích sự tương đương giữa mô hình máy học Véc-tơ tựa với mô hình mờ (Fuzzy model), chúng tôi đề xuất một mô hình tích hợp SVMs và Fuzzy model để trí...... hiện toàn bộ #Máy học véc-tơ tựa #mô hình mờ #khai phá luật kết hợp #khai phá dữ liệu #luật mờ
MỘT SỐ VẤN ĐỀ TÍNH TOÁN LIÊN QUAN ĐẾN CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆUCơ sở dữ liệu và khai phá dữ liệu là những hướng phát triển rất quan trọng trong lĩnh vực công nghệ thông tin (CNTT). Về thực chất dữ liệu đóng vai trò nền tảng nhất trong quá trình xử lí thông tin trên hệ thống máy tính. Lí thuyết cơ sở dữ liệu và việc ứng dụng lí thuyết này vào thực tiễn đã được phát triển và đạt được nhiều thành tựu ngay từ những năm 80 thế kỉ trước. Về bản chất lí thuyết cơ sở...... hiện toàn bộ